Punto de partida

Tenemos una reunión el día 23/10/2024 con el hombre para que nos cuente. La idea que tengo es que tiene unas muestras de metagenómica y de metabolomica y queremos analizarlas.

Tenemos el analisis de metabolomica hecho en principio en la tesis de Vizcaino. Según entendí en la reunión fue que teniamos muestras de pacientes con varias enfermedades hepáticas. Se hizo un estudio metabolómico y encontraron que habia metabolitos no humanos en los analisis metabolomicos. Queremos ver si esos metabolitos se corresponden con alguna bacteria en concreto.


To do


Meetings

2024-10-22 First meeting

  • Starting point

    • What samples do we have?

    • Examine the data

  • Preprocess and data cleaning

    • Clean the data

    • Remove or impute NA values

    • Look if there was batch effect

  • Microbiota analysis

    • Taxa abundance of all taxa

    • Alpha diversity

    • beta diversity

    • Select most important species with RF

    • Pathway analysis with HUMAn2 , PICRUSt2, Tax4Fun

      • comparative

      • GSEA

  • Metabolomic analysis

    • Select most important metabolites with RF
    • Pathway enrichment
  • Correlations

    • Taxa vs clinical data

    • Pathways vs clinical data

    • Metabolites vs clinical data

    • metabolites vs Taxa

  • Predictive model

    • Choose the output variable

    • Choose most important metagenomic and metabolomic

2024-

Lectura OTUS

Lo hice en varias tandas porque me daba error al abrir los analisis en IonReporter. Los he cargado en R sin problemas

Covariables

Quito las variables:

covs <- covs %>% dplyr::select(-“AMSbiopharma request”, -“ID ESTUDO”, - “Nº HISTOLÓGICO”, - “DATA”, -“DATA NASCIMENTO”)

Parece que hay discrepancia en las muestras de las lecturas y de las covariables. Cambié “-” por ”_” porque no tenian la misma nomenclatura. Aun así vemos las siguientes muestras que no se corresponden.

He cambiado estas muestras pero me faltan por localizar

Cuando visualizo las variables vemos que casi todas son numéricas pero hay bastantes que son NAs y pertenecen casi todas al grupo CBP.

Empezamos a ver las variables character a ver qué son:

Pathology group y Diagnóstico Principal son la misma columna así que borro la segunda

Paso Pathology group a factor. Tambien Género. y la de DADOR….

Veo que todas las muestras Healthy son los organos donantes y los demás son los organos dañados. Quito esa variable porque no me aporta nada

Observações la quito porque está vacia de parámetros y parecen cosas que no aportan nada.

Leucocitos totales y linfocitos son numericas. Cuando hago las gráficas de esas dos variables veo que los sanos tienen 999 todos lo que significa que no se recogieron esas muestras en los sanos. Desecho esas variables.

Veo que algunos de los factores tienen NAs. Son las muestras: H13_21217, H13_11681 y H16_05568 en Género.

Nos interesa?

Si nos fijamos en detalle, la muestra última H16_05568 no se recogió ninguna variable clinica pero sí de metabolitos y metagenómica.

Voy a cambiar todos los 999 por NAs

Paso a mirar las numéricas. Empiezo mirando las que tienen NAs.

  • Todas las CBP no tienen los datos de Area del porta utilizada. Es una variable técnica que creo que no aporta nada, así que la quito (A1 Final mm2, A2 Inicial mm2, Média A1+A2)

  • SIDEROSIS (Presencia de gránulos de pigmento hemosidérico en el citoplasma de hepatocitos o en células de Kupffer) y SIDEROSIS TOPOGRAFIA (Localización/topografía de la siderosis en el tejido hepático) tienen muchos NAs. Lo quito.

  • Sirolimus, Sirolimus Conc min (), Everolimus, Everolimus Conc. Mínima no tienen valores en ninguna de las muestras. Las quito las 4

  • Lo mismo con Tacrolimus Conc. Sangre, Ciclosporina Conc. Sangre. Las quito

  • Las variables serológicas y microbiológicas tienen muchos NAs. -anti-VHC, -RNA-VHC, -anti-VHBs, -anti-VHBc, -VHBsAg, -VHBeAg, -anti-VHBe, -DNA VHB, -anti-VHA)

  • Quito tambien las variables bioquímicas y clinicas (ttos y enfermedades) INR:Motivo do transplante

Ahora voy a pasar todas las numericas que son factores. Para ello miro en la tesis.

Vale, ahora vamos a ver los datos. Empezamos viendo cuantas muestras hay de cada tipo de patología. Parece que está muy repartido pero parecen

Vamos con las variables categóricas. Parece que es más o menos normal aunque hay algunas bastante desbalanceadas

Vamos con las numericas:

  • “Nº_EP_SEM_DUCTO”, “Nº_EP_SEM_ARTERIOLA”, “Nº_EP_SEM_ARTERIOLA_E_SEM_DUCTO”, “EOSINÓFILOS” quitarlos

Metabolitos